AI 绘画大变革?腾讯混元微调范式升级,于扩散轨迹全面优化
在32块H20硬件上训练10分钟就能“定调”,微调后的FLUX1.dev模型,人工评出来的真实感和美学分数直接涨了3倍多。
在32块H20硬件上训练10分钟就能“定调”,微调后的FLUX1.dev模型,人工评出来的真实感和美学分数直接涨了3倍多。
当前的扩散模型虽然能通过奖励机制来贴合人类喜好,但存在两个问题:一是优化步骤少,容易出现 “奖励作弊”,也就是模型为了拿高分生成质量差的图;二是需要离线调整奖励模型才能达到好的美学效果,不够灵活。
本文作者分别来自清华大学 CoAI 小组和墨尔本大学。第一作者张哲昕为清华大学直博三年级学生,研究方向为大模型安全,主要合作者为孙玉豪,来自墨尔本大学,主要指导教师为清华大学王宏宁副教授与黄民烈教授。